「PagerDutyで始める インシデント対応の自動化」というテーマで登壇しました#AKIBA.SaaS
2023年1月11日に行われた「第3回 AKIBA.SaaS ONLINE」に登壇しました。 今回私は、「PagerDutyで始める インシデント対応の自動化」というテーマで話をしました。今回は、登壇資料と併せて内容をまとめた記事になります。
セッション概要
今回はPagerDutyの主要機能の一つであるインシデント対応の重要性と自動化について話をしました。 後半ではインシデント対応の初期の段階であるアラートのエスカレーションという観点でPagerDutyを活用するためにどういった機能が使えるかちょっといたデモを交えながらご紹介しました。
対象者
- PagerDutyは何ができるサービスなのか知りたい方
- 組織のインシデント対応についてより楽に行いたいと考えている方
- インシデント対応と言ってもまず何から初めて良いのか分からない方
資料
セッション内容
インシデント対応の重要性
一言でインシデント対応といっても、対応フローの作成のために考えるべきことはたくさんあります。
- 担当者の決定とその担当者が不在/対応中の場合の2次受付の準備
- 復旧までにかかる時間の想定
- チーム内で過去に起きたインシデントに関しての分析結果やレポートをどのように共有するか
上記はほんの一例ですが、このような詳細な考慮事項についてしっかりと確認しておくことで、インシデント発生時の初期対応を可能な限り素早くし、システム復旧までの時間を短くすることができます。
システム復旧までの時間を短くすることによって、サービスを利用する顧客の待機時間が減り満足度が向上することは組織にとって大きなメリットとなります。正確にインシデントに対応しシステムを修復するだけでなく、システム復旧時間の短縮もインシデント対応のゴールの一つと考えて良いでしょう。
PagerDutyとは
PagerDutyはAWSや様々な監視ソフトウェアツールと統合をしてして、それらのツールが発する大量のアラートを分析し、対応を楽にするサービスです。 単純にアラートの振り分けや対応の自動化だけでなく、起きたインシデントの分析やレポートを使い次回以降のインシデント発生時に役立てることができたり、専用のスマートフォンアプリを使用し手の対応ができるのも大きな特徴になっています。
主要機能を簡単にご紹介します。
- オンコール管理
- モニタリングツール
- アラートのエスカレーション自動化
- スケジュール管理
- イベントインテリジェンス
- アラートの仕分け
- 過去に発生した類似のアラートに関しての分析
- モダンインシデントレスポンス
- オンライン会議ツールとの連携
- ビジビリティ
- リアルタイムな状況把握
- アナリティクス
- 各メンバー、各チームの勤務時間やパフォーマンスの記録
インシデント対応の自動化
対応の自動化について考えるためにまずは、インシデント対応プロセスを分解して考えていきます。
今回はチームのアラートとオーケストレーションについてフォーカスしていきます。
PagerDutyではサービスとエスカレーションポリシーの二つを作ることで、アラートを適切な担当者にエスカレーションすることができるようになります。
この二つに関しては、下記ブログで詳しくご紹介していますので気になる方あぜひご覧ください。
上記のほかに、スケジュールという機能についてもご紹介しました。
スケジュール機能はインシデントが発生した際の対応者を時間で区切りスケジュールとして登録しておくことができる機能です。簡単に言うとシフト表のようなものです。
このスケジュールはエスカレーションポリシーに組み込んで、担当者を時間ごとに変更するような設定にすることが可能です。
まとめ
PagerDutyはサービスから発せられる大量のアラートを適切にエスカレーション、分析するのに役立つSaaSです。 PagerDutyを使うもう一つのメリットとして、人為的なミスを減らすだけではなく今回ご紹介したようにインシデント初期対応時間の短縮をすることができます。
できるだけ対応を自動化することで、インシデントの対応や環境の修復により注力することができます。 PagerDutyに関する記事もありますので、ぜひこちらも併せて読んでみてください。